MatMulFusion
=================

矩阵乘法融合（可选偏置和激活），计算：

.. math::

    C = \operatorname{act}(A \times B + \text{bias})

其中 ``A`` 形状为 :math:`M\times K`，``B`` 为 :math:`K\times N`，``C`` 与可选的 ``bias`` 为 :math:`M\times N`。
激活 ``act`` 支持：

- ``0``: 无激活（Identity）
- ``1``: ReLU
- ``2``: ReLU6

输入：
    - **A** - 输入矩阵 A（行优先，连续存储）。大小 M×K。
    - **B** - 输入矩阵 B（行优先，连续存储）。大小 K×N。
    - **bias** - 偏置矩阵（可为 NULL，大小 M×N）。
    - **M, N, K** - 维度参数。
    - **activation_type** - 激活类型，取值 {0,1,2}。
    - **core_mask（可选）** - 核掩码（仅适用于共享存储版本）。

输出：
    - **C** - 输出矩阵（行优先，大小 M×N）。

支持平台：
    ``FT78NE``
    ``MT7004``

.. note::
    - 复数类型的激活逐分量应用于实部与虚部。
    - 请确保输入按行优先连续布局，且不发生类型范围溢出；int16/int32 计算未做饱和裁剪。
    - 共享存储版本要求地址位于 GSM/DDR/SMC 等共享可见空间。

**共享存储版本：**

.. c:function:: void i16_matmulfusion_s(int16_t *A, int16_t *B, int16_t *C, int16_t *bias, int M, int N, int K, int activation_type, int core_mask)
.. c:function:: void i32_matmulfusion_s(int32_t *A, int32_t *B, int32_t *C, int32_t *bias, int M, int N, int K, int activation_type, int core_mask)
.. c:function:: void fp_matmulfusion_s(float *A, float *B, float *C, float *bias, int M, int N, int K, int activation_type, int core_mask)
.. c:function:: void dp_matmulfusion_s(double *A, double *B, double *C, double *bias, int M, int N, int K, int activation_type, int core_mask)
.. c:function:: void c64_matmulfusion_s(float complex *A, float complex *B, float complex *C, float complex *bias, int M, int N, int K, int activation_type, int core_mask)
.. c:function:: void c128_matmulfusion_s(double complex *A, double complex *B, double complex *C, double complex *bias, int M, int N, int K, int activation_type, int core_mask)

    **C调用示例：**

    .. code-block:: c
        :linenos:
        :emphasize-lines: 12

        #include <stdio.h>
        #include <stdbool.h>
        
        int main(int argc, char* argv[]) {
            float *A = (float *)0xA0000000;     // DDR
            float *B = (float *)0xA1000000;     // DDR
            float *C = (float *)0xA2000000;     // DDR
            float *bias = (float *)0xA3000000;  // DDR，可为 NULL
            int M = 512, N = 512, K = 512;
            int activation_type = 1;            // ReLU
            int core_mask = 0xff;               // 8 核
            fp_matmulfusion_s(A, B, C, bias, M, N, K, activation_type, core_mask);
            return 0;
        }

**私有存储版本：**

.. c:function:: void i16_matmulfusion_p(int16_t *A, int16_t *B, int16_t *C, int16_t *bias, int M, int N, int K, int activation_type)
.. c:function:: void i32_matmulfusion_p(int32_t *A, int32_t *B, int32_t *C, int32_t *bias, int M, int N, int K, int activation_type)
.. c:function:: void fp_matmulfusion_p(float *A, float *B, float *C, float *bias, int M, int N, int K, int activation_type)
.. c:function:: void dp_matmulfusion_p(double *A, double *B, double *C, double *bias, int M, int N, int K, int activation_type)
.. c:function:: void c64_matmulfusion_p(float complex *A, float complex *B, float complex *C, float complex *bias, int M, int N, int K, int activation_type)
.. c:function:: void c128_matmulfusion_p(double complex *A, double complex *B, double complex *C, double complex *bias, int M, int N, int K, int activation_type)

    **C调用示例：**

    .. code-block:: c
        :linenos:
        :emphasize-lines: 10

        #include <stdio.h>
        
        int main(int argc, char* argv[]) {
            double *A = (double *)0x10000000;     // L2
            double *B = (double *)0x10020000;     // L2
            double *C = (double *)0x10040000;     // L2/DDR
            double *bias = NULL;                  // 可为 NULL
            int M = 128, N = 128, K = 128;
            int activation_type = 0;              // None
            dp_matmulfusion_p(A, B, C, bias, M, N, K, activation_type);
            return 0;
        }